% !Mode:: "TeX:UTF-8"

\chapter{实验结果与评测分析}
\section{相关术语解释}
\subsection{正类与负类}
在命名实体标注任务中，可以将需要预测的元素分为两类，正类与负类。举个例子，比如在“我要努力学习数学知识。”，若“数学知识”一词是我们需要的命名实体，那么此词为正类，其他为负类。  

训练模型将会对输入的特征向量进行预测，训练模型所预测出的结果最终将分为四中。即：（1）真正（True Positive，简称TP），含义为本身为正类，同时被预测为正；（2）真负（True Negative，简称TN），含义为本身为负类，同时被预测为负；（3）假正（False Positive，简称FN），含义为本身为负类，但却被模型预测为正类；（4）假负（False Negative），含义为本身为正类，但却被预测为负类。

当我们定义了这些数值时，便可以方便地定义一些统计量，这些统计量可以较好地评价一个模型的预测效果。

\subsection{评测指标}

精确率（precision）、召回率（recall）、准确率（accuracy）和F值是评测中文命名实体识别系统性能的指标，也是本文采取的评测指标。如果我们设定真正为\(TP\)，真负为\(TN\)，假正为\(FP\)，假负为\(FN\)，可以对四种评测值进行定义：

（1）精确率\(P\)：精确率针对某一预测结果而言，它表示预测为正的样本里面有多少的真正的正样本。预测为正的样本，显然有真正和假正，公式定义为：\begin{equation}P = \frac{TP}{TP+FP}\end{equation}
在实体标注中，可以看成正确识别的命名实体个数与识别到所有的命名实体的比值。

（2）召回率\(R\)：召回率则是表示样本中的正类有多少被预测正确了。其中包含了真正和假负。和精确率相比，其关注的是我们原来的样本而非预测结果。公式定义为：\begin{equation} R = \frac{TP}{TP+FN}\end{equation}

（3）F值：F值公式定义如下：\begin{equation}F = \frac{(\beta^2 + 1) \times P \times R}{\beta^2P + R}\end{equation} 是综合了精确率和召回率两个值进行评估的办法，同时考虑了\(P\)和\(R\)两个值，其中\(\beta\)是一个权重，决定比较精确率和召回率的时候更加侧重精确率还是召回率，通常设定为1或0.5。在本文，我们选择1，即同等地重视两种指标。

（4）准确率\(A\)：准确率是无论负类还是正类都考虑在内，所有预测正确的结果与所有样本的比值。公式定义如下：\begin{equation}A = \frac{TP+TN} {TP+FN+FP+TN}\end{equation}

\section{评测过程与结果}

我们使用了CoNLL-2000工具，其提供了一个perl语言脚本conlleval.pl，这时专门用于统计命名实体识别系统性能评测指标的软件。将实验获得的测试文档输入重定向到此脚本，便可统计出评测指标。

我们的最终结果，总体来看，准确率达到了90.99\%，精确率为89.74\%，召回率为82.21\%，F值为85.81\%。最终输出文件如表\ref{resultfile}所示，由此可以得出不同命名实体识别效果如表\ref{result}：

\threelinetable[htbp]{resultfile}{0.6\textwidth}{lccr}{conlleval.pl输出文件}
{统计结果输出文件内容\\}
{
ssed 3617 tokens with 596 phrases; found: 546 phrases; correct: 490.\\
accuracy:  90.99\%; precision:  89.74\%; recall:  82.21\%; FB1:  85.81\\

              NAM: precision:  77.83\%; recall:  65.57\%; FB1:  71.17  230\\

              NUM: precision:  98.31\%; recall:  96.69\%; FB1:  97.49  178\\
              UNI: precision:  98.55\%; recall:  95.77\%; FB1:  97.14  138\\

}
{
}

\threelinetable[htbp]{result}{0.5\textwidth}{lccr}{评测指标结果}
{命名实体种类&精确率&召回率&F值\\}
{
NAM & 77.83\%  & 65.57\% & 71.17\%  \\
NUM & 98.31\% & 96.69\% & 97.49\% \\
UNI & 98.55\% & 95.77\% & 87.14\% \\
}
{
}

\section{结果分析}

可以看出，结合了原子模板和组合模板后，对于数字实体和单位实体的识别效果较好，但对于名字实体的识别效果相对较差。我们认为可以使用一些人工启发式的规则识别测试样本运用统计方式未识别出来的实体\citeup{he2015crfguize}或提供高层条件随机场支持来识别为识别出的正类\citeup{zhou2006cengdiecrf}。

\section{本章小结}

本章首先详细介绍了与评价中文命名实体标注系统性能评测指标相关的重要概念。然后使用工具得到了评测指标值，并对评测指标进行简单分析。可以看出，使用组合模板和原子模板结合的情况下，在数字实体和单位实体的识别效果是较好的，但在名字命名实体的识别上仍有相当大的研究空间。
